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Модуль фонематического транскрибирования 
для системы распознавания разговорной 
русской речи 


Статья описывает модуль автоматического фонематического транскрибирования, создающий как 
базовые, так и альтернативные, характерные для разговорного стиля речи, транскрипции словоформ. 
Для генерации альтернативных транскрипций используются правила учета редукции и ассимиляции 
звуков речи. В статье представлены результаты экспериментов по формированию базовых фонематических 
транскрипций слов из исходного текста и оценка примененного метода создания альтернативных 
транскрипций. 


Для функционирования любой системы распознавания речи необходим фонети- 
ческий или фонематический словарь слов, используемых в системе. Для автоматического 
его создания авторами был разработан модуль фонематического транскрибирования. 
Базовые транскрипции создаются по фонетическим правилам русского языка [1]. Однако 
в разговорной речи произношение может варьироваться, и транскрипции произнесенных 
слов часто отличаются от базовых. Для учета вариативности произношения необходимо 
принимать во внимание явления редукции и ассимиляции звуков. Опираясь на 
результаты исследований, полученных в области экспериментальной фонетики [2], 
был сформулирован ряд правил, которые достаточно точно описывают возможные 
отклонения в фонематических транскрипциях, связанные с ассимиляцией и редукцией 
звуков внутри слова и на стыке двух слов [3]. 

На вход модуля транскрибирования поступают: набор предложений, составляющих 
тексты; словарь словоформ русского языка с отметкой ударного слога (слогов), 
используемый фонемный алфавит и фонетические правила, включающие в себя как 
базовые правила транскрибирования, так и правила учета явлений редукции и асси- 
миляции звуков. Результатом работы модуля является транскрибированный словарь 
словоформ, в который входят транскрипции, созданные по базовым правилам транс- 
крибирования, и альтернативные транскрипции, отражающие произношение слов в 
разговорной русской речи. 


1. Фонемный алфавит системы распознавания 
русской речи 


Речевой поток представляет собой непрерывную линейную последовательность 
звуков. Устная, звучащая речь, отличается от письменной речи, которая фиксирует звуча- 
щую речь в буквенных обозначениях. Для передачи звучащей речи на письме исполь- 
зуется особая запись, отличная от орфографической, — фонематическая транскрипция, т.е. 
запись звуков речи с учетом их позиционных изменений в речевом потоке с обо- 
значением ударений в словах. В интересах орфоэпии в данном случае не требуется 
вводить разграничений между понятиями звука речи и фонемы [4]. 
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Особенности тех или иных звуков фиксируются посредством специальных сим- 
волов транскрипции. Для нужд общей фонетики требуются транскрипционные системы 
универсального назначения, пригодные для фиксации особенностей звучащей речи 
на любом языке и более или менее общепринятые в международных лингвистических 
кругах. Наиболее распространены системы, использующие в качестве символов фонем 
знаки латинской графики с добавлением, в случае необходимости, знаков из других 
графических систем. Таковы, например, система МФА (Международной фонетичес- 
кой ассоциации, ПиегпаНопа| РВопейс Аззослайоп) в разных её версиях и восходящая 
к ней система Л.В. Щербы. В этих системах имеются символы для обозначения 
согласных и гласных, в основном, для обозначения их дополнительных артикуляционных 
свойств (палатализованность, веляризованность, придыхательность, огублённость, 
назализованность, отодвинутость назад, продвинутость вперёд), для обозначения сте- 
пеней силового ударения, тона и характера музыкального ударения и т.д. 

В последние годы также была разработана система транскрипции ЗАМРА (Зреесв 
АззеззтепЕ Мео4$ РВопейс Афрвафе() для большого числа европейских языков. 
В транскрипции ЗАМРА принято использовать только те символы, которые имеются 
на клавиатуре персонального компьютера. С их помощью оказывается возможным 
передавать фонетическую информацию по межкомпьютерной связи. 

В данном исследовании в качестве фонемного алфавита используется модифи- 
цированный и адаптированный к кириллице вариант международного фонетического 
алфавита ЗАМРА [5]. В нашем варианте используются 48 фонем: 12 — для гласных 
звуков (с учетом ударных вариантов) и 36 — для согласных (с учетом твердости и 
мягкости звуков). Изменения коснулись гласных звуков, дополнительно к обычным 
вариантам гласных звуков добавлены варианты с ударением. Так как ударные и безудар- 
ные гласные имеют значительные отличия в спектральных и временных характеристиках, 
то такое разделение позволяет увеличить точность моделирования речи. В табл. 1 
представлен перечень базовых фонем, которые используются при распознавании 
русской речи. Знак ['] используется для обозначения ударения в слове, знак [`] — для 
обозначенияв акцентированного гласного звука (т.е. второго ударения в слове) и 
знак [']| — для обозначения мягкости согласных. 

Одним из основных видов информации при транскрибировании является инфор- 
мация о положении ударения в слове, так как от этой информации, в значительной 
степени, зависит результат транскрибирования слова. В данном проекте была исполь- 
зована база данных словоформ русского языка с информацией об ударениях в слово- 
формах, насчитывающая свыше 1 млн 700 тыс. словоформ. Такая база данных доступна 
через Интернет [6] и была создана в ходе проекта ЗТАК ГЛ МС (руководитель проекта 
С.А. Старостин). При формировании этой базы данных был использован граммати- 
ческий словарь А.А. Зализняка (свыше 160 тыс. базовых вариантов слов), правила 
словообразования слов русского языка и правила расстановки ударений в словоформах. 


Таблица 1 — Перечень фонем для распознавания русской речи 


Фонема | Слово Транскрипция Фонема | Слово Транскрипция 
/а/ пара Лт а’ра/ у цепь Дэ’ п/ 

/а’/ пара па’ ра/ /ч/ чай /ч а’ Й/ 

/и/ мели /м'’е’л’ и/ /ф/ фарс /фа’р с/ 

/и’/ мир /м'’ и’ р/ /ф"/ физика /ф’ и’ з'ика/ 
те дерево /д’е р ева/ |/в/ ваза /в а’ за/ 
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Продолж. табл. 1 


Фонема | Слово Транскрипция Фонема | Слово Транскрипция 
/е’/ дерево | /д’е’р'ева/ |/в’ виза /в'_ и’ з а/ 

/ы/ дыры /ды’ ры/ /с/ сын сы’ н/ 

/ы’/ дыры /ды’ ры/ /с'/ сено /с'е’на/ 

/у/ тулуп Тулуш /з/ запах за пах/ 
/у’/ тулуп тулуш /3'/ корзина к арз' и' на/ 
/о’/ город Г о’ рат/ /иШ/ шар ли а’р/ 

/э!/ цепь дэ’ п /щ/ щука Лц у’ ка/ 

и пыль шп ы’ л/ /ж/ жир /ж ы’ р/ 

Ит/ пить И” /х/ хлеб /х ле’ п/ 

/6/ быть /6 ы’ т’ /х'/ хитрый /х' и’трый/ 
/6'/ бить /6' и’ т’ /м/ май /м а’ й/ 

/т/ тост Го’ ст/ /м'/ мята /м' а’ т а/ 

/т’/ тень г" е’ н’/ /н/ найти найти” 
/д/ дым /ды’ м/ /н’/ нить /н’ и’ т/ 

/д’/ день /д’ е’ н/ /л/ луч лу’ ч/ 

/к/ кот /к о’ т/ /л"/ любовь /' убо’ф" 
/к’/ кит /к’ и’ т/ /р/ краб /к ра’ ш/ 

Г гусь Гу’ с" /р'/ резать /'е’зат’/ 
/г/ гибкий и пкий/ |/И/ июль мйул/ 


2. Базовые правила транскрибирования 


Звуки речи произносятся в речевом потоке не изолированно: они тесно связаны 


друг с другом и изменяются в зависимости от качества соседних — предшествующих 
или последующих - звуков, а также в зависимости от места ударения. Эти изменения 
подчиняются определенным нормам, фонетические правила транскрибирования 
русскоязычных текстов описаны в литературе [1], [7], [8]. При транскрибировании 
возможны следующие позиционные изменения классов звуков: изменения гласных в 
положении под ударением, изменения гласных в предударных слогах, изменения 
гласных в заударных слогах, позиционные изменения согласных. Далее описаны по- 
зиционные изменения звуков, примененные в разработанной системе автоматического 
транскрибирования текста с учетом используемого фонемного алфавита. 

В русском языке существует шесть позиций, в которых ударные гласные пред- 
стают в разных своих видах: (1) позиция в абсолютном начале слова не перед мягким 
согласным; (2) позиция между твердыми согласными и после твердого согласного не 
перед согласным; (3) позиция в абсолютном начале слова перед мягким согласным; 
(4) позиция после твердого согласного перед мягким согласным; (5) позиция после 
мягкого согласного не перед мягким согласным; (6) позиция между мягкими 
согласными. В табл. 2 представлены изменения ударных гласных. Знак 1 
принимается для обозначения любого твердого согласного, включая шипящие и /ц/, 
знак "— для обозначения любого мягкого согласного, включая /Й/, и знак а-— для 
обозначения любого ударного гласного. 
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Таблица 2 — Позиционные изменения гласных под ударением 


Позиции ударных гласных 
Га, а 2) ава 3) аР 4) аР 5) Раб Ра 6) Рае 

/е/ /5/ /е/ /5/ /е/ /е/ 

/5/ /5/ /5/ /5/ /5/ /5/ 

/и/ - /и/ - /и/ /и/ 

/ы/ /ы/ - /ы/ - - 

/а/ /а/ /а/ /а/ /а/ /а/ 

/о/ /о/ /о/ /о/ /о/ /о/ 

/у/ /у/ /у/ /у/ /у/ /у/ 

Позиционные изменения безударных гласных имеют место в разных позициях 
по отношению к ударному слогу: в предударных (иногда разделяют правила для пер- 


вого предударного, а также второго и третьего предударных слогов) и заударных 
слогах. Позиционные изменения гласных в предударном слоге представлены в табл. 3, 
а изменения гласных в заударном слоге - в табл. 4. 


Таблица 3 — Позиционные изменения гласных в предударном слоге 


Позиция 
1) Начало 2) После 3) После 4) После 5) После 
Гласный слова задне- парных парных твердых 
язычных |твердых и /ц/ | мягких и /ч/, | шипящих /ш/, 
ИЩИ, /й/ /ж/, /Ц/ 
/е/ /ы/ /и/ /ы/ /и/ /ы/ 
/э/ /ы/ - /ы/ - /ы/ 
/и/ /и/ /и/ - /и/ - 
/ы/ - - /ы/ - /ы/ 
/а/ /а/ /а/ /а/ /и/ /а/ 
/о/ /а/ /а/ /а/ /и/ /ы/ 
/у/ /у/ /у/ /у/ /у/ /у/ 
Таблица 4 — Позиционные изменения гласных в заударном слоге 
Позиция 
Гласный |1) После заднеязычных 2) После парных 3) После парных 
твердых и /ц/, Лш/, /ж/ мягких и /ч/, /щ/ 
/е/ /е/ /е/ /и/ 
/э/ /э/ /э/ /э/ 
/и/ /и/ /ы/ /и/ 
/ы/ - /ы/ - 
/а/ /а/ /а/ /а/ 
/о/ /а/ /а/ /а/ 
/у/ /у/ /у/ /у/ 


Позиционные изменения согласных фонем происходят в следующих вариантах: 
1. В конце слова звонкие шумные оглушаются, и на их месте выступают глу- 
хие шумные. 
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2. В положении перед глухими шумными согласными звонкие шумные соглас- 
ные оглушаются, и на их месте выступают глухие шумные. 

3. В положении перед звонкими шумными согласными, кроме /в/, /в'/, глухие 
шумные озвончаются, и на их месте выступают звонкие шумные. В положении перед 
звонкими шумными глухие /ц/, /ч/ озвончаются, и на их месте выступают звонкие 
/дз/ и /дж',. 

4. В положении перед мягкими зубными /Т'/, /д’/ согласные /Сс/, /з/ смягчаются. 
Перед мягкими зубными /с'/, /з'/ согласные /с/, /з/, смягчаясь, объединяются с ними в 
одну фонему. 

5. В положении перед мягкими зубными /Т'/, /д’/, /с'/, /3'/ согласная /н/ произ- 
носится мягко. 

6. В положении перед /ч/ согласная /т/ (орфогр. т и д), смягчаясь, объединяется 
с ним в фонему /ч/. В положении перед /ч/ согласная /с/ (орфотр. с и з), смягчаясь, 
объединяется с ним в одну фонему. Сочетание букв тш произносится в беглой речи 
как /чш’/. Сочетание букв сш произносится как /щ/. В положении перед /ч/, /щ/ 
согласная /н/ смягчается. 

7. В положении перед /ш/, /ж/ зубные щелевые /с/, /з/ сливаются с ними в фо- 
нему /ш/ или /ж/ соответственно. 

8. Две одинаковые согласные, идущие подряд, заменяются одной фонемой. 

9. Происходят изменения многобуквенных последовательностей согласных: 
лнц — /нц/, стн —> /сн/, здн — /зн/, вств —> /ств/, фств —> /ств/, нтг —> /нг/, ндг — 
/нг/, нд —> /нш/, дет —> /цт/, тс —> Щ/, хг —> ЛГ. 

Перечисленные выше правила используются для создания базовых транскрипций 
слов. Однако в разговорной речи часть звуков может ассимилироваться или редуци- 
роваться до полного исчезновения. Для учета этих явлений спонтанной речи необходимо 
создавать альтернативные транскрипции слов. В следующем разделе будут перечислены 
некоторые правила, позволяющие учесть возможную редукцию и ассимиляцию зву- 
ков речи. 


3. Правила транскрибирования, учитывающие 
возможную редукцию и ассимиляцию звуков речи 


Сформулированные в [3] правила для учета внутрисловной и межсловной редук- 
ции и ассимиляции можно условно разделить на три группы. В первую группу правил 
транскрибирования входят закономерности внутрисловной редукции для разговор- 
ного стиля: 

Правило 1.1. Безударные гласные редуцируются до полного исчезновения, если 
они находятся: 

а) между одинаковыми согласными (филологический /ф'илалаг'и’ческ'ий/ — 

/филлаг'и’ческ'ий/); 

Ь) после одной из парных по глухости-звонкости согласных и перед соот- 

ветствующей парной согласной (создать /сазда’т'/ —> /сзда’т'/); 

с) после мягкой согласной и перед любой согласной (деревянный 

/д'ер’ев'а’ный/ —> /д'р'в'а’ный/); 
4) после сонорной согласной и перед любой согласной (ракета /рак’'е’та/ — 
/рк'е’та/); 
е) после фрикативной согласной и перед любой согласной (собака /саба’ка/ > 
/сба’ка/). 


«Штучний 1нтелект» 42008 ПЭТ 


Кипяткова И.С., Карпов А.А. 


ЭК 


Правило 1.2. Звонкие взрывные согласные редуцируются до полного исчезно- 
вения, если они находятся после гласной и перед безударной гласной (падал /па’дал/ 
—> /па’ал/). 

Правило 1.3. Сонорные согласные, стоящие перед /н/, редуцируются до полного 
исчезновения (четырнадцать /ч'еты'рнацат'/ —> /ч'еты’нацат'/). 

Правило 1.4. Фонемы /в/, /в’/, стоящие перед гласными, редуцируются до пол- 
ного исчезновения (совесть /со'в'ес'т'/ —> /со’ес'т'/). 

Правило 1.5. Фонемы /ф/, /ф'/ редуцируются до полного исчезновения, если они 
находятся после глухой согласной (сфабриковать /сфабр'икава’т'/ —> /сабр'икава'т'/). 

Правило 1.6. Фонема /т'/, стоящая после /с'/ редуцируется до полного исчезно- 
вения (в новостях /в навас'т'а’х/ —> /в навас'а’Х/). 

Правило 1.7. Фонема /д'/, стоящая после /з'/, редуцируется до полного исчезно- 
вения (везде /в'ез'д'е’/ — /в'ез'е'/). 

Во вторую группу правил транскрибирования входят закономерности межслов- 
ной редукции для разговорного стиля: 

Правило 2.1. Безударные гласные редуцируются до полного исчезновения, если 
они находятся: 


а) между одинаковыми согласными (мясо сырое /м'а’са сыро'йе/ —> /м’а’с сы- 
ро’йе/); 
5) после одной из парных по глухости-звонкости согласных и перед соот- 
ветствующей парной согласной (степи большие /с'ге’пи бал'шы’йе/ — 
/с'г'е’т’ бал'шы’йе/); 
с) после мягкой согласной и перед согласной (в поле стоит /ф по'л'е стаи'т/ — 
/ф по’л' стаи'т/); 
4) после сонорной согласной и перед согласной (басня Крылова /ба’с'н’а 
крыло’ва/ — /ба’с'н' крыло'ва/); 
е) после фрикативной согласной и перед согласной (афишу видел /аф’и’шу 
в'и’д’ел/ > /аф'и’ш в'и’д’ел/). 
Правило 2.2. Фонемы /т/ и /д/, стоящие после /с/ и /з/ соответственно, редуци- 
руются до полного исчезновения (хвост коровы /хво’ст каро’вы/ —> /хво’с каро’вы/). 
Правило 2.3. Согласная /Й/ в конце слова редуцируется до полного исчезновения, 
если ей предшествует безударная гласная, а следующее слово начинается с любой 
фонемы, кроме ударной гласной (красный шар /кра’сный ша'р/ > /кра’сны ша’р/). 
В третью группу правил транскрибирования входят закономерности межслов- 
ной ассимиляции для разговорного стиля: 
Правило 3.1. Глухие согласные /п/, /п’/, /т/, /т’/, /к/, /к’/, /ф/, /ф"/, /с/, /с"/, Или, ИИ, 
ЦИ, /ч/ озвончаются перед фонемами /б/, /д/, /Г/, /з/ или /ж/ (с дороги /здаро’т"'и/). 
Правило 3.2. Первая в слове гласная /и/ после всех твердых согласных перехо- 
дит в фонему /ы/ (лист ивы /л'ист ы’вы/). 
Правило 3.3. Сочетание фонем /с'г'/ в конце слова переходит в фонему /щ/, если 
следующее слово начинается с /ч/ (есть чему /е’с'т' чему’/ > /е’щ чему'/). 
Правило 3.4. Если вначале слова стоит сочетание фонем /йи/, причем гласная 
безударная, оно переходит в фонему /ы/ в случае, если первое слово заканчивается на 
твердую согласную (город в Якутии /го'рат в йику'тии/ > /го’рат в ыку'Тии/). 
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4. Процедура автоматического транскрибирования 


Для осуществления автоматического транскрибирования текста был разработан 
модуль на языке программирования С-+, позволяющий получить фонематическую 
транскрипцию из любого исходного текста или отдельных слов. Общий процесс транс- 
крибирования текстов показан на рис. 1. 


Исходный текст 


Предварительная 
обработка текста 


Словарь 
словоформ с 
/дарениями 


Набор правил 
словообразования 


у 


Базовое 
фонематическое 
транскрибирование 


Набор 
фонетических 
правил 


Фонемный 
алфавит 


Уу 


Учет внутрисловной и 
межеловной редукции 


Набор правил 
внутрисловной и 
межеловной редукцие 


Ук 
У 


Учет межсловной 
ассимиляции 


Набор правил 
межсловной 
ассимиляции 


Ул 
у 


Рисунок 1 — Общий процесс автоматического транскрибирования 


Перед применением фонетических правил текст предварительно обрабатывает- 
ся, и в словах проставляются знаки ударения, а затем обозначаются границы основы 
слова путем процедуры, описанной в [9]. 

Вначале создаются базовые транскрипции словоформ. Процедура транскриби- 
рования проходит последовательно за 2 одинаковых цикла, в процессе каждого из 
которых к анализируемому тексту последовательно применяются перечисленные 
выше фонетические правила в следующем порядке: 

1. Согласные перед буквами и, е, 6, ю, я становятся мягкими. 

2. Буквы 6, ю, я меняются на фонемы /йо/, /йу/, /йа/, если они находятся в начале 
слова или после гласного, в противном случае они меняются на /0/, /у/, /а/ соот- 
ветственно. 

3. Согласная перед ь становится мягкой, а сам мягкий знак убирается. 

4. Парные звонкие согласные в конце слова становятся глухими. 

5. Оглушаются согласные перед глухими шумными, и озвончаются согласные 
перед звонкими шумными. 

6. Смягчаются согласные перед мягкими зубными /т'/, /д’/, /с’/, /з'/. 

7. Изменения гласных под ударением (согласно табл. 2) и безударных гласных 
в предударном слоге (согласно табл. 3). 
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8. Изменения гласных в заударном слоге (согласно табл. 4). 

9. Изменения двухбуквенных сочетаний согласных (включая дублирование со- 
гласных). 

10.Из текста удаляется твердый знак ъ (во втором цикле). 

11.В конце слов перед окончанием о буква г заменяется фонемой /в/ (например, 
белого). Для выполнения такой замены используется информация о разбиении слова 
на морфемы. 

12. Изменения многобуквенных сочетаний согласных. 

Затем полученный список базовых транскрипций поступает в блок учета внут- 
рисловной и межсловной редукции, где для каждой базовой транскрипции слова у 
определяется, какие фонемы подвержены редукции. Если таких фонем в слове находится 
больше одной, то производится генерация всех возможных сочетаний редуцирую- 
щихся фонем. Затем каждое из полученных сочетаний обрабатывается отдельно. 
В результате одна альтернативная транскрипция генерируется путем удаления фонем, 
указанных в текущем сочетании, из базовой транскрипции. Таким образом, на вы- 
ходе блока получается набор альтернативных транскрипций У, данной словоформы, 
учитывающий все возможные сочетания редуцируемых фонем. 

Далее в блоке учета межсловной ассимиляции производится анализ первых и 
последних фонем в транскрипции, в случае обнаружения фонем, подверженных асси- 
миляции, производится генерация всех возможных контекстно-зависимых вариантов 
транскрипций. Полученный таким образом набор транскрипций у, , теоретически, 
должен содержать все варианты произношений, которые могуг возникать в разговорной 
речи различных людей. 


5. Результаты экспериментов 


Для экспериментальной проверки и создания базовых транскрипций слов использо- 
вался текст, состоящий более чем из 1000 слов, взятый из рассказов М.М. Пришвина [10]. 
Пример транскрибированного предложения представлен в табл. 5. 


Таблица 5 — Пример транскрибирования предложения 


Исходный текст Транскрибированный текст 
И это были сегодня наши последние и! э!та бы!л'и СЕГОДНЯ на!шы 
гости пасл'е!дн'ийе гас'г'и! 


Возникающие при транскрибировании ошибки можно разделить на 4 категории 
(табл. 6). Большая часть ошибок связана с неправильно проставленным ударением. 
Например, слово гости (табл. 5) было транскрибировано неверно из-за неправильного 
ударения (/гас'т'и!/ вместо /го!с'т'и/). Устранить данную ошибку позволит синтакси- 
ческий разбор предложений с получением морфологической информации о словах, 
составляющих предложения. За счет этого можно избавиться от многозначности ва- 
риантов ударений в словах-омографах. В качестве синтаксического анализатора 
может быть использован программный модуль (вместе с исходными кодами), рас- 
пространяемый по лицензии ГОРГ, разработанный А. Сокирко и доступный в сети 
Интернет [11]. Кроме того, 2 % слов не были транскрибированы, поскольку они не 
были найдены в словаре ударений (например, слово сегодня в табл. 5). Часть ошибок 
была связана с тем, что при удалении разделительного ь исчезала граница в виде 
фонемы /й/ между согласным и гласным. К категории «другие ошибки» относятся 
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следующие ошибки: 

— неправильная замена буквы г на фонему /в/ перед окончанием о, поскольку дан- 
ное преобразование не для всех слов является правомерным (например, много); 

— не происходит замена буквы г на фонему /в/ перед о в середине слова (например, 
в слове сегодняшний) и т.д. 


Таблица 6 — Результаты создания базовых транскрипций 
Правильно Слова, Слова с Исчезновение Другие 
транскрибированные | отсутствующие | неправильным | разделения при | ошибки 
слова в словаре ударением удалении 
ударений разделительного ь 
93,9 % 2,0 % 2,6 % 1,0% 0,5 % 


Результаты экспериментов показали, что базовая фонематическая транскрипция 
создается из исходного текста с приемлемым качеством, что позволяет использовать 
полученную транскрипцию для обучения системы распознавания речи и создания 
словаря распознавания. 

Для тестирования подмодуля редукции и ассимиляции модуля автоматического 
транскрибирования использовался словарь, построенный по названиям рубрик элект- 
ронного каталога «Желтые страницы Санкт-Петербурга». До применения правил 
учета внутрисловной и межсловной редукции и ассимиляции размер словаря состав- 
лял 17662 транскрипции словоформ, после применения правил учета внутрисловной 
и межсловной редукции количество транскрипций увеличилось на 180195, а после 
применения правил межсловной ассимиляции -— на 12108. Размер словаря увеличился 
более чем на порядок, т.е. в среднем мы получаем 11 вариантов произношения каждого 
слова. Соотношение между базовыми транскрипциями, транскрипциями, получив- 
шимися после применения правил внугрисловной и межсловной редукции и после 
применения правил межсловной ассимиляции показано на рис. 2. 


Транскрипции: 


Е базовые 


с внутрисловной редукцией 
Е с межсловной редукцией 


с внутрисловной и межсловной редукцией 


№ с межсловной ассимиляцией 
Е) с внутрисловной редукцией и межсловной ассимиляцией 


Ш с межсловной редукцией и межсловной ассимиляцией 


с внутрисловной и межсловной редукцией и ассимиляцией 


Рисунок 2 — Соотношение количества транскрипций по принципу образования 


На рис. 3 представлено распределение числа транскрипций в расширенном сло- 
варе по текстовому корпусу «Желтые страницы Санкт-Петербурга». Максимальное число 
словоформ имеет 4 транскрипции. При этом встречаются слова с очень большим 
числом альтернативных транскрипций (до 2048), но у 1057 словоформ нет альтерна- 
тивных транскрипций (например, абажур). 
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Число транскрипций для одной словоформы 
Рисунок 3 — Распределение числа транскрипций в расширенном словаре по 
текстовому корпусу «Желтые страницы Санкт-Петербурга» 


> 
> 


— 
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Число словоформ 
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256 1024 


Число альтернативных транскрипций, возникающих после применения правил 
редукции к одной базовой транскрипции, равно суммарному числу возможных соче- 
таний индексов фонем, подлежащих редукции. Таким образом, число транскрипций 
в расширенном словаре для любой словоформы будет кратно суммарному числу со- 
четаний плюс одна базовая транскрипция. Исключения составляют те словоформы, у 
которых к последней фонеме можно применить одновременно и правило редукции, 
и правило ассимиляции (словоформы, заканчивающиеся на /ф/, /ф'/ или /с"Т’/), 
поскольку в случае редукции данной фонемы к ней не нужно применять правило 
ассимиляции. Однако таких словоформ немного, и именно им на гистограмме соот- 
ветствуют меньшие значения (рис. 3). 

Для того чтобы определить, какая часть словоформы наиболее часто подвергается 
изменению, для тестового словаря была определена относительная частота возник- 


новения редукций и ассимиляций в основах и окончаниях словоформ, А и Ка 


ет 


соответственно. Для этого использовались следующие соотношения: 


в Вы $ет; . Ю = ета; . 
мет — › еп _ 2 


Рек, 1 Репа, 


ГДе $. — Число редукций и ассимиляций в основе 1-ой словоформы; р„„, — Число 


фонем в основе 1-ой словоформы; 5„‚ — число редукций и ассимиляций в окончании 
1-0й словоформы; р„, — число фонем в окончании 1-ой словоформы; Г, — число уникаль- 


ных основ (4790 для данного словаря); К -— число уникальных окончаний (225 для 
данного словаря). 

В результате произведенных расчетов относительная частота возникновения 
редукций и ассимиляций в основах словоформ К‚„ =0,213, в окончаниях — К, =0,296. 


ет 
Следовательно, редукции и ассимиляции чаще возникают в окончании, чем в основе. 

Также был проведен анализ частоты применения каждого из правил. Резуль- 
таты представлены на рис. 4. Наиболее часто использовалось правило 1.1с, связанное 
с редукцией безударных гласных после мягких согласных. Реже всего — правило 2.2, 
по которому согласные /т/ и /д/, стоящие на конце слов, редуцируются после фонем 
/с/ и /з/ соответственно. 
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Рисунок 4 — Частота применения правил редукции и ассимиляции 


Указанные статистические результаты помогают оценить состав полученного рас- 
ширенного словаря и провести его последующую оптимизацию с учетом специфики 
предметной области. 


Заключение 


Разработанный модуль позволяет автоматически создавать словарь базовых и 
альтернативных фонематических транскрипций слов для системы распознавания 
русской речи. Создание альтернативных транскрипций позволяет учесть такие явления 
разговорной речи, как редукция и ассимиляция звуков. Альтернативные транскрипции 
генерируются по правилам, разработанным фонетистами, однако результаты экспе- 
риментов показали, что применение всех правил приводит к значительному увеличению 
объема словаря и возможному созданию неправдоподобных транскрипций. Дальнейшая 
работа будет направлена на выставление весов для альтернативных транскрипций, 
что позволит отсеять редкие варианты произношения. 

Работа проводится при поддержке гранта Российского Фонда Фундаментальных Исследований № 08- 
08-00128 «Моделирование нефонемных речевых элементов и создание альтернативных транскрипций для 
распознавания спонтанной русской речи», гранта Комитета по науке и высшей школе Правительства Санкт- 


Петербурга № 30-04/131 «Разработка бимодальной системы аудиовизуального распознавания слитной 
русской речи», а также Фонда Содействия Отечественной Науке. 
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ТБе рарег Чезстез а пофше оРашютайс рбопепис гапзепрноп У\ЛисВ сгеафе$ Бо Базс ап4 аНегпануе гапзсирйоп$ 
ФаЕ аге бурса! Юг сопуегзайопа! зреесВ. Тре пез оЁ зоип4 гефисноп ап аззииЙайоп аге изе4 Юг оепегайоп оЁ 
аНеглануе гапзсирноп$. Тре ехрепглета] гези$ оЁР Югппаноп оЁ Баяс рБопепис гапзсирноп$ оЁ \уог45 Вот ап 
опета! 4ех{ ап суаланоп ое аррИе4 плефо4 Юг сгеаноп оРа[егпайуе гапзсирноп$ аге ргезете4 1 @е рарег. 


Статья поступила в редакцию 18.07.2008. 
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